#embeddings visuales

Pixel-TTS: Síntesis de voz robusta mediante texto como imagen

Descubre Pixel-TTS, el primer modelo de texto a voz que trata el texto como imagen para mejorar robustez, convergencia rápida y generalización zero-shot.

2026-06-16 · 2 min

SAGA: Más allá de distancias escalares con gradientes semánticos en embeddings visuales

Descubre SAGA, un framework que usa MLLM congelados para entrenar codificadores visuales con supervisión de atributos, mejorando el recall en hasta 6 puntos en

2026-06-16 · 2 min